本文研究了关于Riemannian流形的大规模优化问题,其目标函数是负面概要损失的有限总和。这些问题在各种机器学习和信号处理应用中出现。通过在歧管环境中引入Fisher信息矩阵的概念,我们提出了一种新型的Riemannian自然梯度方法,可以将其视为自然梯度方法的自然扩展,从欧几里得环境到歧管设置。我们在标准假设下建立了我们提出的方法的几乎纯净的全球融合。此外,我们表明,如果损失函数满足某些凸度和平稳性条件,并且输入输出图满足了雅各布稳定条件,那么我们提出的方法享有局部线性 - 或在Riemannian jacobian的Lipschitz连续性下,输入输出图,甚至二次 - 收敛速率。然后,我们证明,如果网络的宽度足够大,则可以通过具有批归归量的两层完全连接的神经网络来满足Riemannian Jacobian稳定性条件。这证明了我们的收敛率结果的实际相关性。对机器学习产生的应用的数值实验证明了该方法比最先进的方法的优势。
translated by 谷歌翻译
单眼3D对象检测是自动驾驶的重要感知任务。但是,对大型标记数据的高度依赖使其在模型优化过程中昂贵且耗时。为了减少对人类注释的过度依赖,我们提出了混合教学,这是一个有效的半监督学习框架,适用于在训练阶段采用标签和未标记的图像。教学首先通过自我训练生成用于未标记图像的伪标记。然后,通过将实例级图像贴片合并到空背景或标记的图像中,对学生模型进行了更密集和精确的标签的混合图像训练。这是第一个打破图像级限制并将高质量的伪标签从多帧放入一个图像进行半监督训练的图像。此外,由于置信度评分和本地化质量之间的错位,很难仅使用基于置信度的标准将高质量的伪标签与嘈杂的预测区分开。为此,我们进一步引入了一个基于不确定性的过滤器,以帮助选择可靠的伪框来进行上述混合操作。据我们所知,这是单眼3D对象检测的第一个统一SSL框架。在KITTI数据集上的各种标签比下,混合教学始终通过大幅度的边缘改善了单支持者和GUPNET。例如,我们的方法在仅使用10%标记的数据时,在验证集上对GUPNET基线的改进约为 +6.34%ap@0.7。此外,通过利用完整的训练套件和Kitti的另外48K RAW图像,它可以进一步提高单声道 +4.65%的ap@0.7,以提高汽车检测,达到18.54%ap@0.7基于Kitti测试排行榜的方法。代码和预估计的模型将在https://github.com/yanglei18/mix-teaching上发布。
translated by 谷歌翻译
已被证明在改善神经电机翻译(NMT)系统方面有效的深度编码器,但是当编码器层数超过18时,它达到了翻译质量的上限。更糟糕的是,更深的网络消耗了很多内存,使其无法实现有效地训练。在本文中,我们呈现了共生网络,其包括完整的网络作为共生主网络(M-Net)和另一个具有相同结构的共享子网,但层数较少为共生子网(S-Net)。我们在变压器深度(M-N)架构上采用共生网络,并在NMT中定义M-Net和S-Net之间的特定正则化损耗$ \ mathcal {l} _ {\ tau} $。我们对共生网络进行联合培训,并旨在提高M净性能。我们拟议的培训策略在CMT'14 en-> De,De-> EN和EN-> FR任务的经典培训下将变压器深(12-6)改善了0.61,0.49和0.69 BLEU。此外,我们的变压器深(12-6)甚至优于经典变压器深度(18-6)。
translated by 谷歌翻译
最近,非自动增加(NAT)模型并行地预测输出,与自回归(AT)模型相比,实现了产生速度的大量改进。在对原始数据上表现更差的同时,大多数NAT模型都被培训为在教师模型生成的蒸馏数据上的学生模型,称为序列级知识蒸馏。提高模型性能的有效培训策略是自蒸馏混合(SDM)培训,预先训练原始数据模型,通过预先训练的模型本身产生蒸馏数据,最后重新列举模型原始数据和蒸馏数据的组合。在这项工作中,我们的目标是查看NAT模型的SDM,但发现直接采用SDM到NAT模型在翻译质量方面没有改进。通过仔细分析,我们观察失效与教师模型与NAT学生模型的建模和确认偏差相关。基于这些发现,我们提出了一种增强的策略,通过向经典SDM添加两个阶段来提高名为SDMRT的策略:一个是在自蒸馏数据上进行预重磅,另一个是对滤波后的教师蒸馏数据进行微调。我们的结果在多个NAT模型上以0.6至1.2 bleu表示基础。作为另一个奖励,对于迭代细化NAT模型,我们的方法可以在半迭代号内倾斜基线,这意味着2x加速度。
translated by 谷歌翻译
自回归(AR)和非自动增加(NAR)模型对性能和延迟具有自己的优势,将它们与一个模型相结合,可能会利用两者。目前的组合框架更多地关注多个解码范例的集成,具有统一的生成模型,例如,屏蔽语言模型。然而,由于训练目标和推理之间的差距,概括可能对性能有害。在本文中,我们的目标是通过在统一框架下保留AR和NAR的原始目标来缩小差距。具体地,我们通过将AR和NAR共同建模(左右,左右和直)与新引入的方向变量来提出定向变压器(Diformer),这通过控制每个的预测令牌在那方面有特定的依赖关系。通过方向实现的统一成功地保留了AR和NAR中使用的原始依赖性假设,保留了泛化和性能。 4 WMT基准测试的实验表明,Diformer优于当前的联合建模工作,适用于AR和NAR解码的1.5个以上的BLEU积分,也对最先进的独立AR和NAR模型具有竞争力。
translated by 谷歌翻译
Optimizing energy consumption for robot navigation in fields requires energy-cost maps. However, obtaining such a map is still challenging, especially for large, uneven terrains. Physics-based energy models work for uniform, flat surfaces but do not generalize well to these terrains. Furthermore, slopes make the energy consumption at every location directional and add to the complexity of data collection and energy prediction. In this paper, we address these challenges in a data-driven manner. We consider a function which takes terrain geometry and robot motion direction as input and outputs expected energy consumption. The function is represented as a ResNet-based neural network whose parameters are learned from field-collected data. The prediction accuracy of our method is within 12% of the ground truth in our test environments that are unseen during training. We compare our method to a baseline method in the literature: a method using a basic physics-based model. We demonstrate that our method significantly outperforms it by more than 10% measured by the prediction error. More importantly, our method generalizes better when applied to test data from new environments with various slope angles and navigation directions.
translated by 谷歌翻译
本文提出了一种新的点云卷积结构,该结构学习了SE(3) - 等级功能。与现有的SE(3) - 等级网络相比,我们的设计轻巧,简单且灵活,可以合并到一般的点云学习网络中。我们通过为特征地图选择一个非常规域,在模型的复杂性和容量之间取得平衡。我们通过正确离散$ \ mathbb {r}^3 $来完全利用旋转对称性来进一步减少计算负载。此外,我们采用置换层从其商空间中恢复完整的SE(3)组。实验表明,我们的方法在各种任务中实现了可比或卓越的性能,同时消耗的内存和运行速度要比现有工作更快。所提出的方法可以在基于点云的各种实用应用中促进模棱两可的特征学习,并激发现实世界应用的Equivariant特征学习的未来发展。
translated by 谷歌翻译
减少全身CT扫描中患者的辐射暴露引起了医学成像界的广泛关注。鉴于低辐射剂量可能导致噪声和伪像增加,这极大地影响了临床诊断。为了获得高质量的全身低剂量CT(LDCT)图像,以前的基于深度学习的研究工作引入了各种网络架构。然而,大多数这些方法只采用正常剂量CT(NDCT)图像作为地面真理来指导去噪网络的训练。这种简单的限制导致模型效率更低,并使重建的图像遭受过平滑的效果。在本文中,我们提出了一种新的任务内知识转移方法,利用来自NDCT图像的蒸馏知识来帮助LDCT图像上的培训过程。派生架构被称为师生一致性网络(TSC-Net),由教师网络和具有相同架构的学生网络组成。通过中间功能之间的监督,鼓励学生网络模仿教师网络并获得丰富的纹理细节。此外,为了进一步利用CT扫描中包含的信息,介绍了在对比学习时建立的对比正规化机制(CRM).CRM执行将恢复的CT图像拉到NDCT样本,并将远离LDCT样本的遥控器中的遥远空间。此外,基于注意力和可变形卷积机制,我们设计了一种动态增强模块(DEM)以提高网络变换能力。
translated by 谷歌翻译
本文提出了一种可对应的点云旋转登记的方法。我们学习为每个点云嵌入保留所以(3)-equivariance属性的特征空间中的嵌入,通过最近的Quifariant神经网络的开发启用。所提出的形状登记方法通过用隐含形状模型结合等分性的特征学习来实现三个主要优点。首先,由于网络架构中类似于PointNet的网络体系结构中的置换不变性,因此删除了数据关联的必要性。其次,由于SO(3)的性能,可以使用喇叭的方法以闭合形式来解决特征空间中的注册。第三,由于注册和隐含形状重建的联合培训,注册对点云中的噪声强大。实验结果显示出优异的性能与现有的无对应的深层登记方法相比。
translated by 谷歌翻译
本文提出了一个统一的神经网络结构,用于联合3D对象检测和点云分段。我们利用检测和分割标签的丰富监督,而不是使用其中一个。另外,基于广泛应用于3D场景和对象理解的隐式功能,提出了基于单级对象检测器的扩展。扩展分支从对象检测模块作为输入采用最终特征映射,并产生隐式功能,为其对应的体素中心产生每个点的语义分布。我们展示了我们在NUSCENES-LIDARSEG上的结构的表现,这是一个大型户外数据集。我们的解决方案在与对象检测解决方案相比,在3D对象检测和点云分割中实现了针对现有的方法的竞争结果。通过实验验证了所提出的方法的有效弱监管语义分割的能力。
translated by 谷歌翻译